#!/usr/bin/env python
# -*- coding: utf-8 -*-

import pandas as pd

class ExcelProcessor:
    def __init__(self, input_file, output_file):
        self.input_file = input_file
        self.output_file = output_file

    def process_excel(self):
        """
        读取Excel文件，筛选content长度大于50的行，并保存到新的Excel文件中
        """
        try:
            # 读取Excel文件
            df = pd.read_excel(self.input_file)

            # 筛选content长度大于50的行
            filtered_df = df[(df['content'].str.len() > 10) & (df['content'].str.len() < 500)]

            # 将筛选后的数据保存到新的Excel文件
            filtered_df.to_excel(self.output_file, index=False)

            print(f"筛选完成，结果已保存到 '{self.output_file}'")
        except Exception as e:
            print(f"处理过程中发生错误: {e}")

if __name__ == "__main__":
    # 输入文件和输出文件路径
    input_file = './dic2/hxj.xlsx'  # 输入文件路径
    output_file = './dic2/filtered_output2.xlsx'  # 输出文件路径

    # 创建ExcelProcessor实例并处理文件
    processor = ExcelProcessor(input_file, output_file)
    processor.process_excel()